在統計學中,馬洛斯(Colin Lingwood Mallows)提出運用Cp去評估一個以普通最小二乘法(Ordinary Least Square或OLS)為假設的線性回歸模型的優良性,從而用於模型選取(Model Selection)。當模型中含有多個自變數(Independent Variables或Explanatory Variables),使用Mallows’s Cp 可以為模型精選出自變數子集。Cp數值越小模型準確性越高。對於高斯線性模型(Gaussian Linear Regression),馬洛斯的Cp值被證明與赤池信息準則(Akaike Information Criterion或AIC)等效。
其他模型選取方法還有貝葉斯信息準則(Bayesian Information Criterion 或BIC)以及調整後的R方(Adjusted R-Squared)。
基本介紹
- 中文名:馬洛斯Cp
- 外文名:Mallows's Cp
- 用途:模型選取,優選自變數子集
- 學科:統計
原理,假設及定義,假設,定義,局限性,實用性,
原理
模型選擇統計量如殘差平方和(Residual Sum of Squares)隨著模型包含的自變數數量增多而減少,由此可導致過度擬合(Overfitting)的問題,即自變數數量過多導致模型預測能力下降。藉助Mallows’s Cp 篩選自變數子集可以有效控制參數數量,從而達到最佳化模型的目的。Cp統計量的計算基於一個數據樣本,用於估計均方預測誤差(Mean Squared Prediction Error 或MSPE)作為總體目標值:
指代在j情形下回歸模型中的擬合值(fitted Value)
指代在j情形下回歸模型中的期望值(Expected Value)
指代誤差方差,假設在各情形下保持不變
MSPE不一定隨著自變數數量的增加而減少。最優模型條件由樣本大小(Sample Size),自變數數量及組合以及其間的多元共線性(Collinearity)共同決定。
假設及定義
假設
假設線性原回歸模型(Full Model):
模型自變數係數為 ; 模型誤差為
如果K>p, 從K個自變數中篩選p個回歸自變數,子回歸模型(Reduced Model):
模型自變數係數為 ;模型誤差為
定義
以原回歸模型為基礎,其可能的一個子回歸模型的 統計值定義為
,
其中, n是樣本大小,MSE是均方誤差(Mean Square Error),SSE是誤差平方和(Sum of Square Error)
,指代原回歸模型中的誤差平方和
,指代在含K個自變數的線性回歸模型中對第i個y樣本數據的擬合值
,指代原回歸模型中的均方誤差
,指代子回歸模型中的誤差平方和
,指代在含p個自變數的線性回歸模型中對第i個y樣本數據的擬合值
,指代子回歸模型中的均方誤差
指代y因變數的第i個樣本數據的真實值;
根據線性回歸模型的假設,其中包括對普通最小二乘法以及對模型誤差分布的假設,是的估計值; 是 的估計值。